
红杉中国发布 xbench,首个由投资机构打造的 AI 基准测试
红杉中国发布 xbench,首个由投资机构打造的 AI 基准测试随着基础模型的快速发展和 AI Agent 进入规模化应用阶段,被广泛使用的基准测试(Benchmark)却面临一个日益尖锐的问题:想要真实地反映 AI 的客观能力正变得越来越困难。
随着基础模型的快速发展和 AI Agent 进入规模化应用阶段,被广泛使用的基准测试(Benchmark)却面临一个日益尖锐的问题:想要真实地反映 AI 的客观能力正变得越来越困难。
这个开源项目,Star 攀升趋势巨快。
如果用一句话为 2025 年写下注脚,那它不会是某个技术名词,而更像是一种哲学上的转变:“这一年,我们不再是孤立地使用软件,而是与智能的代理人(Agent)共舞,它们正悄然重塑我们的工作与生活。”
2025 年以来,Agent 开发量和使用量都有明显提高。Agent 的爆发带来了 Agent Infra 需求的爆发。在过去 1-2 年,Agent 开发大多依赖开发者手动使用传统 Infra 搭建,开发工程量大、流程复杂,但随着越来越多 Agent-native Infra 涌现,Agent 开发的难度和周期都在缩小,开发的范式正在重构和收敛。
AI不再相信人类 关于 Agent, flowith 给出了自己的答案 —— Neo
微软Build 2025全面转向AI Agent,整合OpenAI及xAI模型
周末和一位在字节做视频 Agent 的 PM 聊天,想到了一个好问题。
Agent 太多了,为了不让订阅费掏空我的钱包,我会通过苹果的屏幕使用时间以及 gemini 统计网页的访问次数来汇总每周使用频率。
Lovart 值得关注,它是 AI 应用层团队产品创新能力的印证和延续,这是 Manus 之后最火的 Agent,从通用领域,成功地向垂直赛道落地了 Agent 产品形态。
一觉醒来,听说海外又爆了一个 Agent 产品 ——「Lovart」。